Text-based games present a unique class of sequential decision making problem in which agents interact with a partially observable, simulated environment via actions and observations conveyed through natural language. Such observations typically include instructions that, in a reinforcement learning (RL) setting, can directly or indirectly guide a player towards completing reward-worthy tasks. In this work, we study the ability of RL agents to follow such instructions. We conduct experiments that show that the performance of state-of-the-art text-based game agents is largely unaffected by the presence or absence of such instructions, and that these agents are typically unable to execute tasks to completion. To further study and address the task of instruction following, we equip RL agents with an internal structured representation of natural language instructions in the form of Linear Temporal Logic (LTL), a formal language that is increasingly used for temporally extended reward specification in RL. Our framework both supports and highlights the benefit of understanding the temporal semantics of instructions and in measuring progress towards achievement of such a temporally extended behaviour. Experiments with 500+ games in TextWorld demonstrate the superior performance of our approach.
translated by 谷歌翻译
监督学习可以改善最先进的求解器的组合问题的设计,但是由于指数性最差的复杂性,标记大量组合实例通常是不切实际的。受图像的对比预训练的最新成功的启发,我们对增强设计对布尔满意度问题的对比预训练的影响进行了科学研究。虽然典型的图形对比前训练使用了标签 - 敏捷的增强,但我们的主要见解是,许多组合问题都有良好的态度,这允许设计具有标签的增强功能。我们发现,保留标签的增强对于对比度预训练的成功至关重要。我们表明,我们的表示形式能够达到与完全监督学习的可比测试准确性,而仅使用1%的标签。我们还证明,我们的表示形式更容易转移到看不见的域中的更大问题。我们的代码可在https://github.com/h4duan/contrastive-sat上找到。
translated by 谷歌翻译
在混合整数线性编程(MIP)中,A(强)后门是实例的整数变量的“小”子集,具有以下属性:在分支和结合过程中,可以通过仅通过分支来求解该实例到全局最优性。在后门中的变量上。为广泛使用的MIP基准集或特定问题构建预计的后门数据集,家庭可以在MIP的新结构属性上引起新的问题,或者解释为什么在理论上很难在实践中有效解决问题的问题。现有用于查找后门的算法依赖于以各种方式对候选变量子集进行采样,这种方法证明了MIPLIB2003和MIPLIB2010的某些实例的后门存在。但是,由于勘探和剥削之间的不平衡,这些算法在任务中始终取得成功。我们建议BAMCTS,这是一个蒙特卡洛树搜索框架,用于寻找MIPS的后门。广泛的算法工程,与传统MIP概念的杂交以及与CPLEX求解器的密切集成使我们的方法能够超过MIPLIB2017实例的基础线,从而更频繁,更有效地找到后门。
translated by 谷歌翻译
命题模型计数或#SAT是计算布尔公式满足分配数量的问题。来自不同应用领域的许多问题,包括许多离散的概率推理问题,可以将#SAT求解器解决的模型计数问题转化为模型计数问题。但是,确切的#sat求解器通常无法扩展到工业规模实例。在本文中,我们提出了Neuro#,这是一种学习分支启发式方法,以提高特定问题家族中的实例的精确#sat求解器的性能。我们通过实验表明,我们的方法减少了类似分布的持有实例的步骤,并将其推广到同一问题家族的更大实例。它能够在具有截然不同的结构的许多不同问题家族上实现这些结果。除了步骤计数的改进外,Neuro#还可以在某些问题家族的较大实例上在较大的实例上实现壁式锁定速度的订单,尽管开头查询了模型。
translated by 谷歌翻译